正态分布 - 快速入门

作者：Ruben Geert van den Berg，归属于 Statistics A-Z

正态分布 - 一般公式
标准正态分布
正态分布 - 基本属性
从正态分布中查找概率
从逆正态分布中查找临界值
我的变量是否服从正态分布？

定义

正态分布是由以下公式定义的概率密度函数：

\[f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{\dfrac{(x - \mu)^2}{-2\sigma^2}}\]

这会产生一个对称的曲线，如下图所示。

该曲线下的面积为我们提供了_任何_值区间的百分比或概率。假设这些智商分数呈正态分布，人口平均值为100，标准差为15分：

34.1%的人得分在85到100分之间；
15.9%的人得分在115分或以上；
一个随机的人有50%（或0.50）的概率得分在100分或以下。

在统计学中，正态分布起着两个重要的作用：

频率分布（值与观察值）：例如，智商分数在人群中大致呈正态分布。
抽样分布（统计量与样本）：比例和均值在样本中大致呈正态分布。从这个正态分布中，我们可以查找到_任何_观察到的样本均值或比例的概率。严格地说，我们总是查找范围的概率，而不是单独的结果。这基本上就是统计显著性。

正态分布 - 一般公式

正态分布的一般公式是：

\[f(x) = \frac{1}{\sigma\sqrt{2\pi}}\cdot e^{\dfrac{(x - \mu)^2}{-2\sigma^2}}\]

其中：

\(\)（“sigma”）是总体标准差；
\(\)（“mu”）是总体平均值；
\(x\) 是一个值或检验统计量；
\(e\) 是一个数学常数，约为 2.72；
\(\) (“pi”) 是一个数学常数，约为 3.14。

“正态曲线”是通过绘制许多 \(x\) 值的 \(f(x)\) - 概率密度 - 得到的。其水平位置由 \(\) 设定，其宽度和高度由 \(\) 设定。下图给出了一些示例。

与所有概率密度函数一样，该公式_不_返回概率。为了找到这些概率，我们需要找到 \(x\) 值范围的面积，如下所示。

那么如何找到_任何_值范围的概率？好吧，您可以从正态分布公式的积分手动计算它。但是，一个更简单的选择是在 Google Sheets 中查找它，我们将在稍后展示。

标准正态分布

标准正态分布是均值 μ = 0 且标准差 σ = 1 的正态分布。将这些数字填入一般公式会将其简化为

\[f(x) = \frac{1}{\sqrt{2\pi}}\cdot e^{\dfrac{x^2}{-2}}\]

标准正态分布是我们_真正_需要的唯一正态分布。为什么？好吧，我们可以使用正态分布来查找 \(x\) 的概率，如果

\(x\) 呈正态分布，并且
我们知道它的总体平均值 μ，并且
我们知道它的总体标准差 σ。

有了这3个数字，我们还可以计算出一个 z-score：

\[z = \frac{x - \mu}{\sigma}\]

这样做所得到的结果是 \(z\) 被赋予一个 μ = 0 且 σ = 1 的标准。因此，如果 \(x\) 服从正态分布，则 \(z\) 服从_标准_正态分布。

将 \(x\) 转换为 \(z\) 似乎是理论上的。但是，如果我们运行 t 检验或 z 检验，这正是发生的情况。请记住，计算 \(z\) 或标准化值不会以任何方式“规范化”它们。也就是说，仅当 \(x\) 呈正态分布时， \(z\) 才服从标准正态分布。

正态分布 - 基本属性

在我们查找 Google Sheets 中的一些概率之前，我们应该了解以下几点：

正态分布始终从 \(-\) 到 \(\) 延伸；
正态分布的总面积（=概率）始终正好为 1；
正态分布完全围绕其平均值 \(\) 对称，因此具有零偏度 (skewness)；
由于其对称性，对于正态分布，中位数 (median)始终等于平均值；
正态分布始终具有零峰度 (kurtosis)。

从正态分布中查找概率

此 Google Sheet（只读）显示了如何从正态分布中查找概率。

只需在某个单元格中键入 =norm.dist(a,b,c,true) 并

将 a 替换为某个 x 或 z 值；
将 b 替换为总体平均值 μ；
将 c 替换为总体标准差 σ。

这将产生一个左尾概率。像这样，突出显示的示例告诉我们，如果 z 呈正态分布且 μ = 0 且 σ = 1，则 z < -1 的概率为 0.159 - 大约 16%。

因为表面积 - 或总概率 - 始终为 1，所以我们可以使用以下公式找到任何右尾概率：

\(p(X x) = 1 - p(X x)\)

像这样，z > -1 的概率为 (1 - 0.159 =) 0.841。

那么 x 介于 -2 和 -1 之间的概率是多少？或者 - 正式地 - p(-2 < X < -1)？好吧，

\(p(x_a X x_b) = p(X x_b) - p(X x_a)\)

因此，这将是 (0.159 - 0.023 =) 0.136 或 13.6%，如下所示。

如果您不确定是否掌握了这一点，请尝试在空白 Google Sheet 中为自己计算上面显示的每个百分比。

从逆正态分布中查找临界值

正态分布告诉我们值范围的概率。这是检验零假设所必需的。
逆正态分布告诉我们概率的值范围。这是计算置信区间 (confidence intervals)所必需的。

此 Google Sheet（只读）说明了如何找到正态分布变量的临界值。

只需在某个单元格中键入 =norminv(a,b,c) 并

将 a 替换为左尾概率；
将 b 替换为总体平均值 μ（通常为 0）；
将 c 替换为总体标准差 σ（通常为 1）；

请记住，不包括某个参数的概率在两个尾部分布均匀。对于 95% 的置信区间，它为 0.05。这个 0.05 分为 0.025 的左尾和 0.025 的右尾。

对于标准正态分布，这导致 -1.96 < Z < 1.96。下图说明了这是如何工作的。

此处显示的确切临界值都在此 Google Sheet（只读）中计算。

我的变量是否服从正态分布？

许多统计程序，例如 ANOVA，t 检验，回归 (regression) 等，都需要正态性假设 (normality assumption)：变量在总体中必须呈正态分布。只有对于小样本量（例如，N < 25 左右）才需要此假设。对于较大的样本，中心极限定理 (central limit theorem) 使大多数检验对违反正态性具有稳健性 - 但让我们改天再讨论这个问题。

无论如何。如果一个变量在某个总体中呈正态分布，那么它也应该在某个样本中大致呈正态分布。第一个检查 - 简单而可靠 - 是从直方图检查其频率分布。

在 SPSS 中，我们可以非常轻松地将正态曲线添加到直方图中。此正态曲线被赋予与观察到的分数相同的平均值和标准差。它快速显示观察到的分布与正态分布的偏差（多少）。

第二个检查是检查描述性统计，特别是偏度和峰度。一些正态分布的基本属性是

其偏度 (skewness)正好为 0，并且
其峰度 (kurtosis)也正好为 0。

如果在某个总体中这是真的，那么观察到的变量可能不应具有大的（绝对）偏度或峰度。下面的示例表突出显示了与此的一些显着偏差。它们表明反应时间 2、3 和 5 可能_不_在某个总体中呈正态分布。

最后，有 2 个正态性检验 (normality tests)：用于评估总体正态性的统计检验。这些是

这两个测试的目的完全相同：它们测试变量在某个总体中呈正态分布的零假设。

可悲的是，这两个测试在小样本量中都具有低功效 (power) - 恰恰是在真正需要正态性时。这意味着即使正态性不成立，它们也可能不会拒绝正态性。像这样，它们可能会产生一种虚假的安全感，因此我们不建议使用它们。

感谢阅读！